将文本输入转换为视频内容的任务已成为合成媒体生成的重要主题。已经提出了几种方法,其中一些方法在受限的任务中达到了近距离表现。在本文中,我们通过将文本转换为唇部标记来解决文本到视频生成问题的次要发音。但是,我们使用模块化,可控的系统体系结构进行此操作,并评估其每个组件。我们的标题名为Flexlip的系统分为两个单独的模块:文本到语音和语音到唇,都具有基本可控的深神经网络体系结构。这种模块化可以轻松替换其每个组件,同时还可以通过解开或投影输入功能来快速适应新的扬声器身份。我们表明,通过仅将数据的数据用于音频生成组件,而对于语音到唇部分量的5分钟,生成的唇部标记的客观度量与使用较大较大的唇部标记相当一组训练样本。我们还通过考虑数据和系统配置的几个方面,对系统的完整流进行了一系列客观评估措施。这些方面与培训数据的质量和数量有关,使用预审计的模型以及其中包含的数据以及目标扬声器的身份;关于后者,我们表明我们可以通过简单地更新模型中的嘴唇形状来对看不见的身份进行零拍的唇部适应。
translated by 谷歌翻译